查看原文
其他

残障人从事数据标注工作可以赚多少钱?

奇途 奇途无障碍
2024-09-23

随着Chatgpt的爆火,我们所有人都深刻地感受到人工智能即将带来的冲击,那么在人工智能时代什么工作职位不会被取代呢,李开复认为数据标注正是其中之一:“虽然每个人都认为数据录入和处理会因机械化而被淘汰(甚至不需用到AI)。但在未来二十年内,AI进行的训练会用到规模庞大且不断增长的数据。而随着ChatGPT背后的大模型训练的范式演进,还会催生新的工作模式和要求,比如编写提示语(Prompt)或者针对提示写回复,做排序等。“

 

我们已经举办了8期数字经济与残障女性就业讲座,其中第五期的主讲嘉宾陈晓雯正是从事数据标注工作,她是一名视障伙伴,已经在数据标注岗位上工作5年,对这份工作的各个环节有着丰富的经验。

陈晓雯(图源:作者)


哈喽大家好,首先非常感谢纪寻能给我这个机会,和大家来分享我的工作。我先做一个简单的自我介绍,我叫陈晓雯,大家可以叫我晓雯。我从事数据标注已经有近5年的时间了,在我做数据标注之前,我也做过两份其他工作。


我现在全盲,完全无光感。我是在17岁的时候视力急剧下降,后来完全看不见,但是17岁之前算视力比较差的低视力,靠着那些视力走路没有问题,但是看书、看电脑、看手机都是需要依赖盲文或者读屏软件,所以我从小读盲校长大。


大学实行融合教育,我是和其他非残障同学一起读的,在我大学毕业之后,我一开始是顺着大部分视障伙伴的脚步,做了推拿按摩。当然,我也尝试过好几个类型,像普通按摩店的推拿、小儿推拿,但是我很快就选择辞职了。


我觉得在我们年轻的时候,想要去尝试一些其他事情,是比较有勇气和资本的。我希望我个人的经历能够给到伙伴跳出舒适区、改变生活的勇气。我后来找其他的工作,一开始选择海投简历,在招聘网站58同城、智联招聘把我的简历投出去。我当时选择的职业是电话客服,我把目标城市所有的电话客服全都筛出来,然后一家一家投简历。


接到电话之后,我给HR解释,我是一个视障者,平常是怎么样工作的,希望他能够给我一个面试的机会,大部分公司拒绝了我,可能5%的公司愿意让我面试。我去面试的时候,一般自己拿着盲仗,背着电脑去,一方面向公司证明可以独立出行,另一方面演示我是怎么工作的,如果有机会,可以测试他们的系统是否支持读屏操作。


这样下来,几乎所有公司都拒绝了我。后来我收到一家公司的录用通知,是做Pos机售后的电话客服,最终我还是离职了,因为我每天只是在那里坐着,看着同事忙碌,并没有人给我安排工作。


给大家介绍这份工作经历,我是想和大家说,只要你想改变,只要你愿意改变,愿意迈出第一步,总是有机会的。后来,我就经过同学介绍加入一加一残障公益集团,开始我的第三份工作,一开始也是做电话客服,当然有一些技术团队的支持,我们在接到业务、完成业务的过程中少了很多无障碍方面的问题。


为什么开始做数据标注这件事情?因为随着人工智能的飞速发展,电话客服的很多业务都被机器人代替了。那我们当时想着既然人工智能发展得这么好,不如转去这个赛道。刚好有机会接触到现在的甲方爸爸,是一家科技公司,他们一开始是非常不信任我们团队的。因为我们团队是7位视障伙伴、3位肢体伙伴,视障伙伴大部分全盲,即使有一点残余视力的,也都是没有办法看电脑的。所以,他们对我们抱着巨大的怀疑,但是经过我们的努力,比如说我们有同事去科技公司的现场跟他们沟通,演示电脑操作,按照他们工作的流程做测试。之后我们争取到了两个试岗的名额,是由我和另外一位视障伙伴参与试岗,除了必要的读屏支持之外,和其他非残障同事工作环境完全一样。经过我们两个人两个多月的试岗,我们无论从数量还是质量,都达到了对方公司对普通员工的要求,成功接到了业务,开始做数据标注。这是2018年10月,经过这几年的发展,我们也从10个同事发展到了70多位,现在有20多名视力障碍伙伴,剩下的全都是肢体障碍伙伴。


工作经历:推拿按摩、电话客服、数据标准(图源:晓雯PPT)


说了这么多,我先给大家介绍一下数据标注到底是怎么回事。


顾名思义,数据标注就是跟大量的数据打交道,也就是说我们每天都会收到非常非常多的数据,然后给这些数据进行分类、标注和运算,让人工智能能够更好地学习我们人类的语言。比如说我给大家举个例子,“什么是凡尔赛”这句话,在以前这句话是一个城市的介绍。现在成为一个网络用语,但是人工智能可能理解不到这个点儿,我们需要重新给它标注一个新的语义,就是网络用语的语义。


数据标注也是分非常多的大类,像是文字标注、音频标注,还有图片标注。我们现在主要做的是文字和音频标注,因为我们团队视力障碍伙伴比较多一些,所以目前没有涉及图片标注。音频标注就是给你一条音频数据,然后你根据它的规则做文字转写,像是是否音频截断,用户说的是否是方言,等等,进行各种分类和打标签。


我们平时的工作量,是跟其他同事差不多的。根据你的组别不同、难易程度不同,数据量也是不同的。可能从一两百到一两千这样的跨度都会有,我们目前的工作饱和度应该是在60%-80%,不是非常饱和。我们整个工作状态就是每天会有一些固定的数据量,需要把这些固定的数据量完成,然后会有固定的周会、例会,大家来沟通规则。有的时候需要有一些新的知识规则学习,还有非常重要的一部分,当你没有达到你的正确率的要求的时候,比如说我们的正确率是95%或者98%的时候,你需要有一部分时间修改你的错误数据,直到达到正确率为止,大概就是这几部分的工作内容。


现在我所在的数据标注的分组,属于语义标注和槽位标注,分得更细,你在不同的分组,分的粗细的程度不一样。假设你在一个算法组,你的分类学习的知识可能只有100条,但是你到语义组,分类学习的知识可能就有2000条,我大概给大家举个例子解释一下。


比如我问AI说:今天下不下雨?这句话。如果我在算法组需要做的就是,我只要知道这条是问关于天气的,我标到天气就OK了。那你的工作要求一天的完成量可能是在2000条左右或者1500条左右,我在语义组,可能需要知道的是我标到天气之后,还要标是查询天气预报、查询风况,还是确认是否有某个气象这样更细节的东西。


关于槽位标注,需要标注更多细节,“今天下不下雨”,看到这句话,要给“今天”打上“日期”的标签,给“下雨”打上“气象”的标签。一天的处理量可能要求300条或者400条左右。


01

数据标注的收入  


大家非常关注关于数据标注收入这方面的问题,我给大家简单介绍一下,收入根据工作的难易程度有比较大的跨度。收入相对比较低的可能是在语义组,比如每天只需要听语义词,类似天猫精灵、小爱同学,hei siri这种。只需要听是不是符合真正唤醒词的标准,还有是否会误唤醒,比如我跟你说:这个天猫精灵一点不好用。我实际没有叫它,它被误唤醒,只需要判断这样的情况,那工资收入相对比较低。


相对收入比较高的可能会是标注一些小语种,比如粤语,还有难度更高的,像槽位标注组。工资大概是在三千到七八千不等,当然其他公司会有更高的收入,要求也会更多一些。


02

数据标注的晋升机制


关于大家很关心的数据标注的晋升机制,实话说没有非常大的晋升空间,数据标注上面是质检,质检第一部分工作就是看标注的同学的标注结果是不是正确,是不是符合规则。第二部分工作就是跟开发同学确认规则,然后完成开发同学给的一些其他任务。还有就是疑难的数据问题的处理,大概就是这三部分工作。质检是标注员可以晋升的第一个职位。标注员可以再晋升上去的岗位是产品经理,跟质检的工作差距可能比较大,对学历和专业的东西要求会更高。目前我知道的是还没有从标注晋升到产品经理的先例。你还可以往另外一个方向发展,直接学习编程、写代码,这样你可以做一些开发相关的工作。虽然开发肯定是收入三级跳,但他对于编程技能的要求会非常高,跟标注肯定不在一个维度上。


说这么多,我是想说,标注虽然算是一个比较基础、比较流程化的工作。但是对于我们残障伙伴,当你目前没有一个非常牛的技能的情况下,它是一种比较好的谋生手段。你从学习成本、时间上,还有你上手的速度上,都是一个比较好的选择。


03

数据标注工作需要的能力


我给大家简单介绍一下,我觉得从事数据标注这份工作需要的能力。


  •  生活能力


因为它跟我们传统的视障伙伴的按摩店完全不一样,它肯定是需要你自己解决生活问题,也不会管吃管住这么便利。首先是你需要找到一个住的地方如果你不是在这个城市的话。当然一些公司会提供宿舍,你就不用找住的地方。


其次你需要解决你的一日三餐,不管叫外卖还是自己做饭,肯定是需要你自己解决的。


再次你要能独立上下班。你是不是能够去到公司,然后晚上安全地回到家,遇到一些特殊情况,你是不是有处理的能力。比如说公司今天要你去办一张银行卡,你能不能自己办到这件事情。这是一些软技能。


  • 工作上的能力


第一,你是否能够正常地使用电脑。视力障碍伙伴读屏用得好不好,其他障碍的伙伴,你是不是能够正常操作电脑。像是办公软件、浏览器搜索、内部办公系统,你是不是能够顺利地使用。


第二,你的学习能力。因为数据标注涉及的知识点非常多,我说它学习成本低,是因为公司会给你培训,并且培训的时间基本上是在一个月左右,基本上最难的那个标注的分组,你也可以上手了。但是,你在这个学习的过程中,大家只会给你一些培训资料和讲一些基础的东西,具体的内容还是得自己学习,会给你学习的方法,但是不会告诉你1+1=2,要自己探索这件事情,需要有探索的精神。


并且前一个月的压力是非常大的,学习压力比工作压力要大很多。肢体障碍的伙伴可以和其他普通同事一样,遇到问题大不了去数据库里查,但是对于视障伙伴来说,可能需要的就是我前期把这2000个知识点背下来。我们去数据库里搜索是一件比较困难的事情,为了提高你的工作效率,就必须要把它背出来。有没有这份耐心和毅力是一个挑战,很多人是在培训过程中就放弃了。


第三,沟通能力。因为需要和很多同事一起工作,和他们沟通的时候是否能够保证坚持你的立场,又能够和大家和睦相处。


第四,是你的耐心程度,你每天都要处理几百上千条数据,是不是有这个耐心。我这里说起来可能没有那么枯燥,但是你每天都在处理同样的流程,可能是非常枯燥的一件事情,是不是有足够的耐心认真完成每一条数据。如果你没有达到要求的正确率,也是要自己修改的。你是不是有这个耐心?


第五,抗压能力。比如这段时间来了一批数据,有10万条,可能只有10个同学干活,必须要在两个星期之内完成,你可能这段时间突然变得很忙。每天的工作饱和度就会到百分之百甚至更多,你能不能接受这样的情况?质检同学质检得也非常快,返回来之后的数据可能需要你继续修改,这样的频率非常高,你是不是能够接受这样高压的情况,一天处理完成。你的脑子一直在转,后面可能都转不动了,这样的情况你是不是能够接受。如果这些都能接受的话,其实数据标注,我觉得是一个非常好的选择。因为很稳定,并且每天处理的事情也相对流程化,也会有比较好的支持系统。


04

找工作的途径    


我给大家讲一下我知道的一些找工作的途径。首先,我给我们公司打个广告,就是我们公司如果有岗位,就一直会招视力障碍和肢体障碍的伙伴,目前没有涉及听力障碍的伙伴,是因为我们现在接到的业务基本上都是有音频标注这一部分的。即使是纯文字标注,也需要音频标注为辅助手段。所以,目前没有考虑到支持听障伙伴做这件事情。


至于肢体障碍和视力障碍的伙伴,我们这边都会有岗位,可以关注我们的公众号:金盲杖。


第二,还有一个非常好的选择,就是苹果的数据标注。它的工资收入是比我们这边要高很多,但是要求也更高一点,需要有一些英文能力,因为他们的标注系统是全英文的,在苹果官网就有招聘信息。其他两个是一些兼职的,一是海天瑞声的众包平台,做图片标注,我们公司之前做过他们的外包业务,我有一些了解。


还有一个是腾讯搜活帮也是记件制的标注业务,什么类型的都有,也是一个公众号,直接可以搜到,大概就是这些信息。


我分享的内容大概就是这些,之后大家有什么其他的问题,可以问我。谢谢大家!



参考资料:  

李开复在知乎的回答https://www.zhihu.com/question/583231401/answer/2890767240




编辑丨赵小侠 咸鱼



更多阅读

人工智能对残障群体有哪些冲击?

不露脸,残障的我在抖音一年赚了10W

坐轮椅如何玩转游乐园?






修改于
继续滑动看下一个
奇途无障碍
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存